Search CORE

Prédiction du grade d'un cancer du sein par la découverte de motifs séquentiels contextuels dans des puces à ADN

Author: Bringay Sandra
Fabrègue Mickaël
Poncelet Pascal
Rabatel Julien
Teisseire Maguelonne
Publication venue: HAL CCSD
Publication date: 01/01/2011
Field of study

National audienceLe cancer du sein reste de nos jours un problème de santé majeur et un véritable déﬁ pour les biologistes et les professionnels de santé. Les puces à ADN permettent aujourd'hui d'étudier selon un jour nouveau les problématiques associées à cette maladie. Dans cet article, nous proposons de traiter les données issues des puces à ADN par le biais de l'extraction de motifs séquentiels contextuels (séquences de gènes ordonnés selon leur niveau d'expression associées à un contexte). L'objectif est de proposer une aide au diagnostic du grade d'une tumeur. Notre approche tient à la fois compte de l'information contenue dans les puces à ADN (exprimée par le biais de motifs séquentiels), mais également d'informations additionnelles d'ordre contextuel (e.g., âge du patient, taille de la tumeur, etc.) et qui sont associées aux données de puces à ADN lorsque celles-ci sont publiées en ligne. L'approche proposée a été évaluée sur des données réelles

Extraction de motifs spatio-temporels à différentes échelles avec gestion de relations spatiales qualitatives

Author: Braud Agnès
Bringay Sandra
Fabrègue Mickaël
Le Ber Florence
Teisseire Maguelonne
Publication venue: HAL CCSD
Publication date: 29/05/2012
Field of study

ISBN : 978-163266234-7National audienceGeoreferenced databases contain a huge volume of temporal and spatial data. They are notably used in environmental analysis. Several works address the problem of mining those data, but none are able to take into account the richness of the data and especially their spatial and temporal dimensions. In this paper, we focus on the extraction of a new kind of spatiotemporal patterns which consider the relationship between spatial objects and also various geographical scales. We propose an algorithm, STR_PrefixGrowth, which can be applied on a huge amont of data. The proposed method is evaluated on hydrological data collected on the Saône basin during the last 19 years. Our experiments emphasize the contribution of our approach toward the existing methods.Les bases de données géoréférencées contiennent un important volume de données temporelles et spatiales. Elles sont par exemple particulièrement utilisées dans le cadre d'analyses environnementales. Plusieurs méthodes ont été proposées pour l'exploration de telles bases de données, mais aucune ne permet d'exploiter toute la richesse des données, en particulier leurs dimensions spatiales et temporelles. Dans cet article, nous introduisons un nouveau type de motifs spatio-temporels considérant les relations entre objets spatiaux mais aussi les différentes échelles géographiques. Nous proposons un algorithme d'extraction de motifs STR_PrefixGrowth applicable sur un important volume de données. Nous traitons un exemple de données hydrobiologiques collectées sur le bassin de la Saône durant les 19 dernières années. Les expérimentations menées soulignent l'intérêt de notre méthode par rapport aux méthodes existantes

HAL-INSU

OrderGeneMiner : Logiciel pour l'extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN

Author: Braud Agnès
Bringay Sandra
Fabrègue Mickaël
Le Ber Florence
Lecellier Charles-Henri
Poncelet Pascal
Teisseire Maguelonne
Publication venue: HAL CCSD
Publication date: 29/01/2013
Field of study

Démonstration du logiciel @ 13e Conférence Francophone sur l'Extraction et la Gestion des Connaissances (EGC 2013)Le Virus de l'Immunodéficience Humaine (VIH) est actuellement un problème majeur de santé publique. Depuis l'identification du VIH, plus de 20 millions de personnes ont été identifiées. Le VIH continue de ravager les populations dans le monde entier avec 3 millions de nouvelles infections par an. Contrairement au cancer, les approches de biologie intégrative sont toujours rares dans le domaine de la lutte contre le HIV. Dans cet article, nous proposons de contribuer au développement d'une telle stratégie, en présentant un logiciel de fouille de données qui va permettre d'appliquer les concepts de motifs séquentiels et de motifs partiellement ordonnés aux données de puces à ADN. Ce logiciel se focalise sur les besoins des biologistes: 1) permet à l'expert d'intéragir dans le processus d'extraction des motifs; 2) offre une visualisation des motifs extrait sous la forme d'un graphe coloré qui résume un ensemble de motifs séquentiels. Il en résulte une visualisation plus compacte et simple qui facilite l'interprétation des experts

Co2Vis: A Visual Analytics Tool for Mining Co-Expressed and Co-Regulated Genes Implied in HIV Infections

Author: Bringay Sandra
El Aabidine Amal Zine
Fabrègue Mickaël
Lecellier Charles-Henri
Phan Nhat Hai
Poncelet Pascal
Sallaberry Arnaud
Publication venue: HAL CCSD
Publication date: 01/01/2013
Field of study

International audienceOne of the key challenges in human health is the identification of disease-causing genes like AIDS (Acquired ImmunoDeficiency Syndrome). Numerous studies have addressed this challenge through gene expression analysis. Due to the amount of data available, processing DNA microarrays in a way that makes biomedical sense is still a major issue.Statistical methods and data mining techniques play a key role in discovering previously unknown knowledge. However, applying such techniques in this context is difficult because the number of measurement points (i.e., gene expression levels) is much higher than the number of samples resulting in the well-known curse of dimensionality problem also called the high feature-to-sample ratio.We propose a combination of data mining and visual analytics methods to identify and render groups of genes implied in HIV infections and sharing common behaviors

HydroQual: Visual analysis of river water quality

Author: Accorsi Pierre
Braud Agnès
Bringay Sandra
Cernesson Flavie
Fabrègue Mickaël
Lalande Nathalie
Le Ber Florence
Poncelet Pascal
Sallaberry Arnaud
Teisseire Maguelonne
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 25/10/2014
Field of study

International audienceEconomic development based on industrialization, intensive agriculture expansion and population growth places greater pressure on water resources through increased water abstraction and water quality degradation [40]. River pollution is now a visible issue, with emblematic ecological disasters following industrial accidents such as the pollution of the Rhine river in 1986 [31]. River water quality is a pivotal public health and environmental issue that has prompted governments to plan initiatives for preserving or restoring aquatic ecosystems and water resources [56]. Water managers require operational tools to help interpret the complex range of information available on river water quality functioning. Tools based on statistical approaches often fail to resolve some tasks due to the sparse nature of the data. Here we describe HydroQual, a tool to facilitate visual analysis of river water quality. This tool combines spatiotem-poral data mining and visualization techniques to perform tasks defined by water experts. We illustrate the approach with a case study that illustrates how the tool helps experts analyze water quality. We also perform a qualitative evaluation with these experts

Un système décisionnel pour l’analyse de la qualité des eaux de rivières

Author: Bimonte Sandro
Boulil Kamal
Braud Agnès
Bringay Sandra
Cernesson Flavie
Dolques Xavier
Fabrègue Mickaël
Grac Corinne
Lalande Nathalie
Le Ber Florence
Teisseire Maguelonne
Publication venue: 'Lavoisier'
Publication date: 28/06/2015
Field of study

National audienceThis article describes a decisional system developed to allow the analysis of data about hydro-ecosystem functioning; there are numerous and various data, from several sources. The implemented system includes an integrated database, a datawarehouse for exploring data dimensions, and data mining tools for answering hydroecologists’ questions.Cet article décrit un système décisionnel développé pour permettre l’analyse des données concernant le fonctionnement des hydro-écosystèmes ; ces données sont nombreuses, diverses et issues de sources variées. Le système mis en place comporte une base de données intégrée, un entrepôt permettant l’exploration des dimensions associées aux données, et des outils de fouille permettant de répondre aux questions des hydro-écologues

Recherche de motifs partiellement ordonnés clos discriminants pour caractériser l'état des milieux aquatiques

Author: Braud Agnès
Bringay Sandra
Fabrègue Mickaël
Le Ber Florence
Teisseire Maguelonne
Publication venue: HAL CCSD
Publication date: 01/07/2014
Field of study

Atelier AnaEnv "ANAlyse de données ENVironnementales" associé à la conférence RFIA, Rouen, 1er juillet 2014This paper presents a data mining process implemented to extract original knowledge from hydro-ecological data. The approach is based on closed partially ordered patterns used as discriminant features to link physico-chemistry with biology in river sampling sites. For each bio-indicator quality value, we obtain a set of significant discriminant features. We use them to identify the impact of physico-chemical characteristics on the biological dimensions. The approach has been experimented on a dataset of several thousands river sites.Cet article présente un processus de fouille de données mis en oeuvre pour extraire des connaissances d'un jeu de don-nées concernant l'hydro-écologie des cours d'eau. L'approche s'appuie sur la recherche de motifs clos partiellement ordonnés, utilisés comme éléments discriminants pour relier les paramètres physico-chimiques et biologiques mesurés sur des stations de rivières. Pour chaque valeur d'un indice biologique, sont mis ainsi en évidence des séquences temporelles de valeurs de paramètres physico-chimiques ayant un impact sur la biologie. L'approche est mise en oeuvre sur un jeu de données regroupant plusieurs milliers de stations de rivières

Recherche de motifs partiellement ordonnés clos discriminants pour caractériser l'état des milieux aquatiques

Author: Braud Agnès
Bringay Sandra
Fabrègue Mickaël
Le Ber Florence
Teisseire Maguelonne
Publication venue: HAL CCSD
Publication date: 01/07/2014
Field of study

OrderSpan: Mining Closed Partially Ordered Patterns

Author: Braud Agnès
Bringay Sandra
Fabrègue Mickaël
Le Ber Florence
Teisseire Maguelonne
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 17/10/2013
Field of study

International audienceDue to the complexity of the task, partially ordered pattern mining of sequential data has not been subject to much study, despite its usefulness. This paper investigates this data mining challenge by describing OrderSpan, a new algorithm that extracts such patterns from sequential databases and overcomes some of the drawbacks of existing methods. Our work consists in providing a simple and flexible framework to directly mine complex sequences of itemsets, by combining well-known properties on prefixes and suffixes. Experiments were performed on different real datasets to show the benefit of partially ordered patterns